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La presente invention concerne un procede de classification hierarchique 
descendante de donnees, chaque donnee etant associee a des valeurs particulieres 
initiales d'attributs communs aux donnees. Plus particulierement, I'invention concerne un 
procede de classification comprenant des etapes recursives de divisions d'ensembles de 
donnees. 

Le procede de classification automatique de Williams & Lambert est un procede de 
ce type. II s'applique cependant a des donnees dont les attributs sont binaires, c'est-a-dire 
des attributs prenant pour chaque donnee une valeur particuliere « Vrai » ou « Faux ». 
Selon ce procede, lors de chaque etape de division d'un ensemble, on calcule pour 
chaque attribut la valeur du Khi2 cumule sur tous les autres attributs (la valeur du Khi2 
calcule entre deux attributs permet d'estimer le lien entre ces deux attributs). On divise 
ensuite Pensemble en sous-ensembles sur la base de I'attribut ayant la valeur du Khi2 
cumule la plus elevee. 

Ce procede peut etre etendu a la classification de donnees dont les attributs 
prennent des valeurs symboliques, moyennant I'execution d'une etape preliminaire dite de 
"binarisation". Lors de cette etape chaque valeur symbolique qu'un attribut peut prendre 
est transformee en un attribut binaire. Ensuite, au cours des etapes recursives de division, 
on calcule les valeurs du Khi2 sur les matrices de contingence des couples d'attributs 
binaires obtenus. 

Cependant, ce procede ne peut pas etre applique sans inconvenient majeur a la 
classification de donnees multi-valuees mixtes numeriques/symboliques, c'est-a-dire des 
donnees dont certains attributs sont symboliques et d'autres numeriques Dans ce 
document, nous entendons par valeurs numeriques des valeurs quantitatives 
(representees par des nombres) et par valeurs symboliques des valeurs qualitatives (dites 
aussi discretes, et representables par exemple par des lettres ou des mots"). 

En effet, en ce qui concerne les attributs numeriques, une discretisation preliminaire 
des valeurs par intervalles est necessaire, de maniere a rendre symbolique chaque 
attribut numerique. Or cette transformation fait inevitablement perdre de ('information, 
sans compter que le nombre d'intervalles de discretisation va influer sur le resultat final, 
sans qu'il soit possible de choisir judicieusement ce nombre d'intervalles a priori. La 
coherence des classes obtenues s'en trouve affectee. 

De plus, meme dans le cas d'attributs uniquement symboliques, Petape preliminaire 
de "binarisation" augmente considerablement le nombre d'attributs, ce qui augmente 
egalement considerablement le temps d'execution du procede. 

Enfin, le calcul du Khi2 est une estimation du lien entre deux attributs, et met en 
valeur des attributs correles ou anti-correles. Ce calcul surestime done artificiellement le 
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lien entre des attributs anti-correles issus de I'etape de binarisation. Le calcul du Khi2 
etant en outre symetrique entre deux variables, il ne permet pas de determiner si une 
variable est plus discriminante qu'une autre. 

L'invention vise a remedier a ces inconvenients en fournissant un procede de 
classification hierarchique descendante capable de traiter des donnees multi-valuees 
numeriques et/ou symboliques en optimisant la complexite de traitement et la coherence 
des classes obtenues. 

L'invention a done pour objet un procede de classification hierarchique descendante 
de donnees, chaque donnee etant associee a des valeurs particulieres initiates d'attributs 
communs aux donnees, le procede comprenant des etapes recursives de divisions 
d'ensembles de donnees, caracterise en ce que, lors de chaque etape de division d'un 
ensemble, on calcule des valeurs discretes d'attributs a partir des valeurs particulieres 
initiates d'attributs des donnees dudit ensemble, et en ce que I'on divise ledit ensemble en 
sous-ensembles en fonction des valeurs discretes. 

En effet, lors de I'execution d'un procede de classification selon l'invention, on 
calcule de nouvelles valeurs discretes d'attributs associees a des donnees que I'on 
souhaite classer, a chaque etape recursive de division du procede. Cette discretisation 
n'etant pas realisee une bonne fois pour toute lors d'une etape preliminaire, aucune 
information n'est perdue lors de I'execution du procede. De plus, a chaque iteration, la 
division d'un- ensemble en sous-erisembles" se basant sur les~ valeurs "discretes des 
attributs calcules temporairement, le procede en est d'autant simplifies. 

De facon optionnelle, lors de chaque etape de division d'un ensemble, on calcule 
des valeurs binaires d'attributs a partir des valeurs particulieres initiates d'attributs des 
donnees dudit ensemble, et I'on divise ledit ensemble en sous-ensembles en fonction des 
valeurs binaires. 

Ce principe de discretisation de chaque attribut numerique et symbolique en 
seulement deux valeurs (dit "binarisation", de I'anglais "binning") maximise la vitesse 
d'execution de I'algorithme sans nuire sensiblement a sa precision sur de grands volumes 
de donnees. 

Un procede de classification selon l'invention peut en outre comporter I'une ou 
plusieurs des caracteristiques suivantes : 

- lors de I'etape de calcul des valeurs binaires d'attributs, on calcule pour 
chaque attribut numerique une estimation de la mediane des valeurs particulieres initiates 
de cet attribut pour les donnees dudit ensemble, et I'on affecte a I'attribut binaire 
correspondant a cet attribut pour une donnee dudit ensemble, la valeur « Vrai » si la 
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valeur particuliere initiale de I'attribut numerique pour cette donnee est inferieure ou egale 
a ('estimation de la mediane, et ia valeur « Faux » sinon ; 

- I'estimation de la mediane d r un attribut numerique est obtenue de la fagon 
suivante : 

• on extrait des valeurs extremes de I'ensemble des valeurs prises par 
I'attribut numerique pour les donnees dudit ensemble ; 

• on calcule la moyenne des valeurs restantes ; et 

• on affecte a ('estimation de la mediane la valeur de cette moyenne. 

- lors de I'etape de calcul des valeurs binaires d'attributs, on calcule pour 
chaque attribut symbolique une estimation du mode des valeurs particulieres initiales de 
cet attribut pour les donnees dudit ensemble, et Ton affecte a I'attribut binaire 
correspondant a cet attribut pour une donnee dudit ensemble, la valeur « Vrai. » si la 
valeur particuliere initiale de I'attribut numerique pour cette donnee est egale a 
I'estimation du mode, et la valeur « Faux » sinon ; 

- I'estimation du mode d'un attribut symbolique est obtenue de la fagon 
suivante : 

• on memorise les m premieres valeurs symboliques differentes prises par 
les donnees dudit ensemble pour I'attribut symbolique, m etant un 
nombre predetermine ; 

• on retient la valeur symbolique apparaissant le plus souvent parmi ces m 
premieres valeurs symboliques differentes ; et 

• on affecte a I'estimation du mode cette valeur symbolique retenue. 

- on divise ledit ensemble en sous-ensembles en fonction d'un critere 
d'homogeneite calcule a partir des valeurs discretes d'attributs dudit ensemble ; 

- on divise ledit ensemble sur la base des valeurs discretes de I'attribut le plus 
discriminant, c'est a dire I'attribut pour lequel un critere d'homogeneite de I'ensemble des 
valeurs discretes des autres attributs dans les sous-ensembles obtenus est optimise ; 

- pour un attribut quelconque le critere d'homogeneite est une estimation de 
I'esperance des probabilites conditionnelles de predire correcternent les autres attributs 
connaissant cet attribut ; et 

- certains attributs etant a priori marques comme tabous au moyen d'un 
parametre particulier, I'attribut le plus discriminant est I'attribut non marque tabou pour 
lequel le critere d'homogeneite de I'ensemble des valeurs discretes des autres attributs 
dans les sous-ensembles obtenus est optimise. 

L'invention sera mieux comprise a I'aide de la description qui va suivre, donnee 
uniquement a titre d'exemple et faite en se referant aux dessins annexes dans lesquels : 
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- la figure 1 illustre schematiquement la structure d'un systeme informatique 
pour la mise en ceuvre d'un procede selon I'invention, ainsi que la structure 
de donnees fournies en entree et en sortie de ce systeme ; et 

- la figure 2 represente les etapes successives d'un procede selon I'invention. 

5 Le systeme represente sur la figure 1 est un systeme informatique classique 

comprenant un catculateur 10 associe a des memoires de type RAM et ROM (non 
representees) pour le stockage de donnees 12 et 14 fournies en entree et en sortie du 
calculateur 10. Les donnees 12 fournies en entree du calculateur 10 sont par exemple 
stockees sous la forme d'une base de donnees, ou bien sous la forme d'un simple fichier. 

10 Les donnees fournies en sortie du calculateur 10 sont stockees dans un format qui 
permet, pour la mise en ceuvre du procede selon I'invention, de les representer sous la 
forme d'une structure arborescente, telle qu'un arbre de decision 14. 

Les donnees 12 sont des donnees multi-valuees numeriques et/ou symboliques. 
Ces donnees sont par exemple issues de bases de donnees medicates, marketing, c'est- 

15 a-dire des bases de donnees contenant generalement plusieurs millions de donnees 
associees chacune a plusieurs dizaines d'attributs numeriques ou symboliques. 

Dans la suite de la description, I'ensemble des donnees sera note D = {d^ d n }. 
L'ensemble des attributs sera note A = {a 1( a p }. Ainsi, chaque donnee dj multi-valuee 
peut etre representee dans I'espace A des attributs, sous la forme suivante : 

20 d| = (ai (dj) ; a p (dj)), ou aj (dj) est la valeur que prend I'attribut a } pour la donnee 

dj. 

Les attributs aj peuvent etre numeriques ou symboliques. Par exemple, comme 
represente sur la figure 1, I'attribut est numerique. II prend la valeur 12 pour la donnee 
di et la valeur 95 pour la donnee d n . L'attribut a p est symbolique. II attribue par exemple 
25 une couleur aux donnees de la base : ainsi la donnee est de couleur bleue et la donnee 
d n est de couleur rouge. 

II est judicieux de representer cette base de donnees multi-valuees sous la forme 
d'un tableau dont les lignes correspondent chacune a une donnee dj et dont les colonnes 
correspondent chacune a un attribut aj. 
30 Le calculateur 10 met en ceuvre un procede de classification automatique 

hierarchique descendante de ces donnees 12 multi-valuees numeriques et/ou 
symboliques, dont I'objectif est de generer des classes homogenes de ces donnees, 
classes auxquelles on accede a I'aide de Tarbre de decision 14 associe. 

Un mode de realisation prefere de I'invention est d'organiser les classes obtenues 
35 en un arbre de decision binaire, c'est-a-dire un mode de realisation dans lequel on divise 



1 er depot 

: !> ; 

-5- 

une classe de donnees en deux sous-classes. Ce mode de realisation particulierement 
simple permet une classification rapide et efficace des donnees. 

Pour la mise en oeuvre du procede de classification, le calculateur 10 comporte un 
module pilote 16 dont la fonction est de coordonner I'activation d'un module 
5 d'entrees/sorties 18, d'un module de discretisation 20 et d'un module de segmentation 22. 
En synchronisant ces trois modules, il permet la generation recursive de I'arbre de 
decision 14 et des classes homogenes. 

Le module d'entrees/sorties 18 a pour fonction de lire les donnees 12 fournies en 
entree du calculateur 10. En particulier, il a pour fonction d'identifier le nombre de 
10 donnees a traiter et le type des attributs associes a ces donnees, pour les fournir au 
module de discretisation 20. 

Le module de discretisation 20 a pour fonction de transformer les attributs a 1( ...,a p 
en attributs discrets. Plus precisement, dans cet exemple, le module de discretisation 20 
est un module de binarisation qui a pour fonction de transformer chaque attribut en 
15 attribut binaire, c'est-a-dire en attribut pouvant uniquement prendre la valeur Vrai eu Faux 
pour chacune des donnees dj. Son fohctionnement sera detaille en reference a la figure 2. 

Le module de segmentation 22 a pour fonction de determiner, parmi les attributs 
binaires calculees par le module de binarisation 20, celui qui est le plus discriminant pour 
diviser un ensemble de donnees en deux sous-ensembles les plus homogenes possibles. 
20 Son fonctionnement sera detaille en reference a la figure 2. 

Le procede recursif de classification automatique et de generation d'un arbre de 
decision associe comporte une premiere etape 30 d'extraction de donnees de la base de 
donnees 12. Lors de cette etape, il s'agit d'extraire de la base 12 les donnees appartenant 
a un ensemble E 1f represents par un noeud terminal de I'arbre de decision 14, et que Ton 
25 souhaite diviser en deux sous-ensembles En et E 12 . 

Ces donnees sont extraites avec leurs attributs et ceux-ci sont fournis en entree du 
module de binarisation 20, qui traite separement les attributs symboliques et les attributs 
numeriques. 

Ainsi, lors d'une etape 32a d'estimation de valeur mediane, le module de 
30 binarisation 20 calcule, pour chaque attribut numerique aj, une estimation de la valeur 
mediane de I'ensemble des valeurs suivantes : 

{d, (a,);...;d„ (a,)}. 

Lors de cette etape 32a, il est possible de calculer directement la valeur mediane Mj 
de I'ensemble des valeurs prises par I'attribut aj, mais ce calcul peut etre remplace par un 
35 procede d'estimation de cette valeur mediane, plus simple a mettre en oeuvre par des 
moyens informatiques. 
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Ce precede cTestimation de la mediane M } comporte par exernple les etapes 
suivantes : 

- on extrait des valeurs extremes de I'ensemble des valeurs prises par I'attribut 

5 - on calcule la moyenne des valeurs restantes ; et 

- on affecte a Mj la valeur de cette moyenne. 

Les valeurs extremes extraites de I'ensemble sont par exernple, n valeurs 
maximales et n valeurs minimales, n etant un parametre predetermine ou resultant d'une 
analyse prealable de la distribution des valeurs prises par I'attribut a y 
10 II est egalement possible d'estimer la valeur de la mediane par le simple calcul de la 

moyenne de I'ensemble des valeurs de I'attribut. 

Lors de I'etape suivante 34a de calcul d'attributs binaires, on calcule les valeurs d'un 
attribut binaire b jt a partir de chaque attribut numerique a j} de la fagon suivante : 

si d. I a . <M . ,d. f b. | = vrai; 
1 V J/ J 1 V Jy 

sid i ^ j>Mj ? dj (V ) = faux. 

15 En ce qui concerne les attributs symboiiques a k , le module de binarisation 20 

calcule, pour chacun d'entre eux, une estimation du mode de leurs valeurs. Ceci est 
realise lors d'une etape-32b d'estimation de mode 

Le mode M k d'un ensemble de valeurs symboiiques d'un attribut a k est la valeur 
symbolique prise le plus souvent par cet attribut. 
20 Ce mode M k peut etre calcule mais cela est couteux en temps de calcul. 

Pour simplifier cette etape, on peut remplacer le calcul direct du mode par un 
procede d'estimation de celui-ci comportant les etapes suivantes : 

- lors de la lecture les donnees de I'ensemble E1 , le module de binarisation 20 
memorise les m premieres valeurs symboiiques differentes prises par les 

25 donnees di pour I'attribut a k , m etant un nombre predetermine ; 

- on retient la valeur symbolique apparaissant le plus souvent parmi ces m 
premieres valeurs symboiiques differentes ; et 

- on affecte cette valeur symbolique retenue au mode M k . 
On choisit par exernple m = 200. 

30 Si I'attribut a k comporte un nombre de valeurs symboiiques possibles inferieur a m, 

alors ('estimation du mode M k est egale au mode lui-meme. Sinon, I'estimation du mode 
M k a de fortes chances de constituer une bonne valeur de remplacement du mode dans 
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de nombreux cas. D'une fagon generale, la plupart des attributs statistiques symboliques 
ont moins de quelques dizaines de valeurs symboliques differentes. 

Lors de I'etape 34b suivante de calcul d'attributs binaires, on calcule les valeurs d'un 
attribut binaire b kl a partir de chaque attribut symbolique a k , de la facpon suivante : 

5 sid ik| =M k' d iKH rai ^ 

sidj (a k )*M k 3 dj (b k )=faux. 

Suite aux etapes 34a et 34b, on passe a une etape 36 lors de laquelle on rassennble 
les attributs binaires b k , bj issus des attributs symboliques a k et numeriques aj. On 
constitue ainsi un ensemble B = {b^.-^bp} d'attributs binaires pour I'ensemble des 
donnees dj. Lors de cette etape, le module de binarisation 20 fournit les donnees multi- 
10 valuees de I'ensemble associees a leurs attributs binaires {b^.., b p } au module de 
segmentation 22. 

Ensuite, lors d'une etape de calcul 38, le module de segmentation 22 calcule pour 
chaque attribut bj la valeur f (bj) suivante : 

f(b j )= ^Fu(b J? b k ),avec 

™?(uu\ l^(B j )Max(p(B k /B j );p(-nB k /B j )) + 
Vj kJ nLc(-.B j )Max(p(B k /-,B J );p(-,B k /-.B j ))_ 

15 ou pour tout indice j, Bj est Tevenement « I'attribut bj prend la valeur Vrai » ; et 

-nB J est I'evenement « I'attribut bj prend la valeur. Faux », 

avec Max(x,y) : fonction retournant le maximum entre x et y ; 

p(x/y) : probabilite de I'evenement x sachant I'evenement y ; et 

c(x) effectif de I'evenement x (ponderation). 

20 Telle qu'elle est presentee ci-dessus, pour chaque attribut bj, la valeur f(bj) est une 

estimation de I'esperance des probabilites conditionnelles de predire correctement les 
autres attributs, connaissant la valeur de I'attribut bj. En. d'autres termes, elle permet 
d'evaluer la pertinence d'une segmentation en deux sous-ensembfes basee sur Tattribut 

25 Une autre fonction f peut cependant etre choisie pour optimiser la segmentation, 

telle qu'une fonction basee sur un calcul de covariance des attributs. 

Lors de I'etape de selection 40 suivante, le module de segmentation 22 determine 
I'attribut binaire b jmax qui maximise la valeur f(b jmax ), c'est a dire I'attribut le plus 
discriminant pour une segmentation en deux sous-ensembles. 

30 Ensuite, lors d'une etape 42 de segmentation, le module 22 genere deux sous- 

ensembles En et E 12 a partir de I'ensemble des donnees E v Le premier ensemble est 
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par exemple le sous-ensemble regroupant les donnees pour lesquelles I'attribut b jmax 
prend la valeur Vrai et le sous-ensemble E 12 regroupe les donnees de Tensemble pour 
lesquelles I'attribut b jmax prend la valeur Faux. 

Lors de cette etape, on met a jour I'arbre de decision 14 en rajoutant deux noeuds 
5 En et E 12 relies au noeud par deux nouvelles branches. 

Ainsi, lorsque Ton se deplace dans cet arbre de decision et que Ton arrive au noeud 
El on effectue le test suivant : 

"la donnee dj a Telle, pour I'attribut a im3X , une valeur inferieure a M jmax ?", si a jmax est 
un attribut numerique ; ou 
10 "la donnee dj a t'elle, pour I'attribut a. Max, une valeur egale a M jmax ?", si a jmax est un 

attribut symbolique. 

Si la reponse a ce test est positive, alors la donnee d| appartient au sous-ensemble 
En, sinon elle appartient au sous-ensemble E 12 . 

Suite a I'etape 42, lors d'une etape 44 de test, on teste un critere d'arret du procede. 
15 Ce critere d'arret est par exemple le nombre de noeuds terminaux de I'arbre de decision, 
c'est-a-dire le nombre de classes obtenues par le procede de classification, si Ton s'est 
fixe un nombre de classes a ne pas depasser. 

Le critere d'arret peut aussi etre le nombre de niveaux dans Parbre de decision. On 
peut egalement imaginer d'autres criteres d'arret. 
20 Si ce critere d'arret est atteint, on passe a une etape 46 de fin de procede. Sinon on 

passe a I'etape 30 lors de laquelle on recommence le procede decrit precedemment a 
partir d'un nouvel ensemble de donnees, par exemple I'ensemble En ou ('ensemble E 12 
obtenu precedemment. 

On notera que le procede de classification decrit precedemment est un procede non 
25 supervise. 

Ce procede de classification peut egalement etre utilise en mode "semi-supervise". 
L'application d'un procede de classification en mode semi-supervise est utile lorsque Ton 
souhaite predire ou expliquer un attribut particulier en fonction de tous les autres alors 
que cet attribut particulier est mal ou peu renseigne dans la base de donnees 12, c'est-a- 

30 dire lorsque pour un grand nombre de donnees dj, aucune valeur ne correspond a cet 
attribut. II suffit dans ce cas d'tdentifier cet attribut comme purement "a expliquer", et de le 
marquer comme tel via un marquage particulier, par exemple dans un fichier de 
parametres associes. Cet attribut specifie comme "a expliquer" par I'utilisateur est dit 
attribut "tabou". L'attribut tabou ne doit pas etre choisi comme discriminant. 

35 On notera aussi que Ton peut definir plusieurs attributs tabous. II suffit dans ce cas 

de distinguer parmi les attributs aj, les attributs dits "explicatifs" et les attributs "tabous". 
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On s'interdit alors de selectionner les attributs tabous comme attributs discriminants pour 
effectuer une segmentation, lors de I'etape 40 precedemment decrite. 

En effet, en mode semi-supervise, lors de I'etape 40, si I'attribut selectionne est un 
attribut tabou, alors on cherche le deuxieme attribut qui maximise la fonction f(bj) et ainsi 
de suite jusqu'a trouver I'attribut non tabou le plus discriminant, c'est-a-dire celui qui 
maximise le critere d'homogeneite des valeurs discretisees des autres attributs dans les 
sous-ensembles En et E 12 . 

La classification finalement obtenue permettra ensuite de predire les valeurs d'un 
attribut tabou, pour les donnees ou celles-ci sont manquantes. En effet, le procede de 
classification effectue des tests uniquement sur I'ensemble des attributs explicatifs tout en 
exploitant au maximum toutes les correlations entre attributs. 

La prediction des valeurs d'un attribut tabou se fait en remplagant des valeurs 
manquantes ou mal renseignees par les valeurs renseignees les plus probables dans 
chaque classe. 

II apparait clairement qu'un procede selon invention permet la classification simple 
et efficace selon un mode hierarchique descendant, de donnees multi-valuees 
numeriques et/ou symboliques. Sa faible complexity permet de I'envisager pour la 
classification de grandes bases de donnees. 
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REVENDICATIONS 

1. Procede de classification hierarchique descendante de donnees (12), chaque 
donnee (12) etant associee a des valeurs particulieres initiales d'attributs (a,,...,a p ) 
communs aux donnees, le procede comprenant des etapes recursives (32a, 32b, 34a, 
34b, 36, 38, 40, 42) de divisions d'ensembles (E,, E„, E 12 ) de donnees, caracterise en ce 
que, lors de chaque etape de division d'un ensemble (E,), on calcule (32a, 32b, 34a, 34b, 
36) des valeurs discretes d'attributs a partir des valeurs particulieres initiales d'attributs 
des donnees dudit ensemble, et en ce que I'on divise (38, 40, 42), ledit ensemble (E,) en 
sous-ensembles (En, E 12 ) en fonction des valeurs discretes. 

2. Procede de classification hierarchique descendante de donnees (12) selon la 
revendication 1, caracterise en ce que, lors de chaque etape de division d'un ensemble 
(E,), on calcule (32a, 32b, 34a, 34b, 36) des valeurs binaires d'attributs a partir des 
valeurs particulieres initiales d'attributs des donnees dudit ensemble, et en ce que I'on 
divise (38, 40, 42) ledit ensemble (E t ) en sous-ensembles (E„, E 12 ) en fonction des 
valeurs binaires. 

3. Procede de classification hierarchique descendante de donnees (12) selon la 
revendication 1 ou 2, caracterise en ce que lors de I'etape (32a, 32b, 34a, 34b, 36) de 
calcul des valeurs binaires d'attributs, on calcule (32a) pour chaque attribut numerique 
une estimation de la mediane des valeurs particulieres initiales de cet attribut pour les 
donnees dudit ensemble, et en ce que I'on affecte (34a) a I'attribut binaire correspondant 
a cet attribut pour une donnee dudit ensemble, la valeur « Vrai » si la valeur particuliere 
initiate de I'attribut numerique pour cette donnee est inferieure ou egale a ('estimation de 
la mediane, et la valeur « Faux » sinon. 

4. Procede de classification hierarchique descendante de donnees (12) selon la 
revendication 3, caracterise en ce que I'estimation de la mediane d'un attribut numerique 
est obtenue de la facon suivante : 

- on extrait des valeurs extremes de I'ensemble des valeurs prises par I'attribut 
numerique pour les donnees dudit ensemble ; 

- on calcule la moyenne des valeurs restantes ; et 

- on affecte a I'estimation de la mediane la valeur de cette moyenne. 

5. Procede de classification hierarchique descendante de donnees (12) selon I'une 
quelconque des revendications 1 a 4, caracterise en ce que lors de I'etape (32a, 32b, 34a, 
34b, 36) de calcul des valeurs binaires d'attributs, on calcule (32b) pour chaque attribut 
symbolique une estimation du mode des valeurs particulieres initiales de cet attribut pour 
les donnees dudit ensemble, et en ce que Ton affecte (34b) a I'attribut binaire 
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REVENDICATIONS 

1 . Procede de classification hierarchique descendante de donnees multi-valuees (12) 
stockees dans des moyens de stockage d'un systeme informatique, chaque donnee (12) 
etant associee a des valeurs particulieres initiates d'attributs (a 1s ...,a p ) communs aux 
donnees, le procede comprenant des etapes recursives (32a, 32b, 34a, 34b, 36, 38, 40, 
42) de divisions d'ensembles (E 1f En, E 12 ) de donnees, caracterise en ce que, lors de 
chaque etape de division d'un ensemble (E^, on calcuie (32a, 32b, 34a, 34b, 36) des 
valeurs discretes d'attributs a partir des valeurs particulieres initiales d'attributs des 
donnees dudit ensemble, et en ce que Ton divise (38, 40, 42) ledit ensemble (Ei) en sous- 
ensembles (E 11f E 12 ) en fonction des valeurs discretes. 

2. Procede de classification hierarchique descendante de donnees (12) selon la 
revendication 1, caracterise en ce que, lors de chaque etape de division d'un ensemble 
(E^, on calcuie (32a, 32b, 34a, 34b, 36) des valeurs binaires d'attributs a partir des 
valeurs particulieres initiales d'attributs des donnees dudit ensemble, et eri*ce que l*on 
divise (38, 40, 42) ledit ensemble (E n ) en sous-ensembles (E t1l E 12 ) en fonction des 
valeurs binaires. 

3. Procede de classification hierarchique descendante de donnees fl2) selon la 
revendication 1 ou 2, caracterise en ce que lors de I'etape (32a, 32b, 34a; 34b, 36) de 
calcul des valeurs binaires d'attributs, on calcuie (32a) pour chaque attribut numerique 
une estimation de la mediane des valeurs particulieres initiales de cet attribut pour les 
donnees dudit ensemble, et en ce que Ton affecte (34a) a I'attribut binaire*cc>rrespondant 
a cet attribut pour une donnee dudit ensemble, la valeur « Vrai » si la valeur particuliere 
initiale de I'attribut numerique pour cette donnee est inferieure ou egale a I'estimation de 
la mediane, et la valeur « Faux » sinon. 

4. Procede de classification hierarchique descendante de donnees (12) selon la 
revendication 3, caracterise en ce que ('estimation de la mediane d'un attribut numerique 
est obtenue de la fagon suivante : 

- on extrait des valeurs extremes de I'ensemble des valeurs prises par I'attribut 
numerique pour les donnees dudit ensemble ; 

- on calcuie la moyenne des valeurs restantes ; et 

- on affecte a I'estimation de la mediane la valeur de cette moyenne. 

5. Procede de classification hierarchique descendante de donnees (12) selon I'une 
quelconque des revendications 1 a 4, caracterise en ce que lors de I'etape (32a, 32b, 34a, 
34b, 36) de calcul des valeurs binaires d'attributs, on calcuie (32b) pour chaque attribut 
symbolique une estimation du mode des valeurs particulieres initiales de cet attribut pour 
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correspondant a cet attribut pour une donnee dudit ensemble, la valeur « Vrai » si la 
valeur particuliere initiale de I'attribut numerique pour cette donnee est egale a 
('estimation du mode, et la valeur « Faux » sinon. 

6. Precede de classification hierarchique descendante de donnees (12) selon la 
5 revendication 5, caracterise en ce que ('estimation du mode d'un attribut symbolique est 

obtenue de la fagon suivante : 

on memorise les m premieres valeurs symboliques differentes prises par les 
donnees dudit ensemble pour I'attribut symbolique, m etant un nombre 
predetermine ; 

10 - on retient la valeur symbolique apparaissant le plus souvent parmi ces m 

premieres valeurs symboliques differentes ; et 
on affecte a I'estimation du mode cette valeur symbolique retenue. 

7. Procede de classification selon Tune quelconque des revendications 1 a 6, 
caracterise en ce que Ton divise ledit ensemble (Ei) en sous-ensembles (E 11} E 12 ) en 

1 5 fonction d'un critere d'homogeneite calcule a partir des valeurs discretes d'attributs dudit 
ensemble (E^. 

8. Procede de classification selon Tune quelconque des revendications 1 a 7, 
caracterise en ce que Ton divise ledit ensemble (E t ) sur la base des valeurs discretes de 
I'attribut le plus discriminant, e'est a dire I'attribut pour lequel un critere d'homogeneite de 

20 ('ensemble des valeurs discretes des autres attributs dans les sous-ensembles obtenus 
(En, E 12 ) est optimise. 

9. Procede de classification selon la revendication 8, caracterise en ce que pour un 
attribut quelconque le critere d'homogeneite est une estimation de I'esperance des 
probabilites conditionnelles de predire correctement les autres attributs connaissant cet 

25 attribut. 

10. Procede de classification selon la revendication 8 ou 9, caracterise en ce que, 
certains attributs etant a priori marques comme tabous au moyen d'un parametre 
particulier, I'attribut le plus discriminant est I'attribut non marque comme tabou pour lequel 
le critere d'homogeneite de I'ensemble des valeurs discretes des autres attributs dans les 

30 sous-ensembles obtenus (En, E 12 ) est optimise. 
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!es donnees dudit ensemble, et en ce que Ton affecte (34b) a 1'attribut binaire 
correspondant a cet attribut pour une donnee dudit ensemble, la valeur « Vrai » si la 
valeur particuliere initiale de I'attribut numerique pour cette donnee est egale a 
Testimation du mode, et la valeur « Faux » sinon. 

6. Procede de classification hierarchique descendante de donnees (12) selon la 
revendication 5, caracterise en ce que I'estimation du mode d'un attribut symbolique est 
obtenue de la fagon suivante : 

- on memorise les m premieres valeurs symboliques differentes prises par les 
donnees dudit ensemble pour ('attribut symbolique, m etant un nombre 
predetermine ; 

- on retient la valeur symbolique apparaissant le plus souvent parmi ces m 
premieres valeurs symboliques differentes ; et 

on affecte a I'estimation du mode cette valeur symbolique retenue. 

7. Procede de classification selon Tune quelconque des revendications 1 a 6, 
caracterise en ce que Ton divise ledit ensemble (EO en sous-ensembles;^ 1? E 12 ) en 
fonction d'un critere d'homogeneite calcule a partir des valeurs discretes d'attributs dudit 
ensemble (Ei). 

8. Procede de classification selon Tune quelconque des revendications 1 a 7, 
caracterise en ce que I'on divise ledit ensemble (E^ sur la base des valeurs discretes de 
I'attribut le plus discriminant, c'est a dire I'attribut pour lequel un critere d'homogeneite de 
i'ensemble des valeurs discretes des autres attributs dans les sous-ensembles obtenus 
(E 11f E 12 ) est optimise. 

9. Procede de classification selon la revendication 8, caracterise en ce que pour un 
attribut quelconque le critere d'homogeneite est une estimation de I'esperance des 
probability conditionnelles de predire correctement les autres attributs connaissant cet 
attribut. 

10. Procede de classification selon la revendication 8 ou 9, caracterise en ce que, 
certains attributs etant a priori marques comme tabous au moyen d'un parametre 
particulier, Tattribut le plus discriminant est I'attribut non marque comme tabou pour lequel 
le critere d'homogeneite de I'ensemble des valeurs discretes des autres attributs dans les 
sous-ensembles obtenus (En, E 12 ) est optimise. 
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